ROCm и HIP: Подробное 10-главное руководство: Перемена мышления в синхронизации графических процессоров

Фундаментальный переход в высокопроизводительных вычислениях заключается в переходе от последовательной модели выполнения, ориентированной на центральный процессор, к раздельной модели производитель-потребитель, при которой центральный процессор управляет потоком данных, а графический процессор работает независимо. Основная идея заключается в том, что графический процессор не предназначен для работы как строго синхронного устройства; если рассматривать его как такое устройство, возникает «проблема ожидания».

1. Жизненный цикл рабочего процесса

При асинхронном подходе разработчик не ждет завершения каждой задачи. Вместо этого он выделяет память, запускает ядра, и возвращает результаты результаты, помещая неблокирующие запросы в аппаратную очередь.

2. Преодоление простоев

Когда хосту принуждают синхронизироваться после каждой операции, время задержки — время передачи между ЦП и ГПУ — определяет производительность. Используя асинхронность, ЦП продолжает работать, пока ГПУ обрабатывает свой поток, что максимизирует загрузку аппаратных ресурсов.

$$\text{Общее время} = \max(\text{Работа ЦП}, \text{Работа ГПУ}) + \text{Накладные расходы на синхронизацию}$$

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which set of steps correctly converts a synchronous vector-add to use an explicit stream?

Call hipStreamCreate, use hipMemcpyAsync with the handle, and pass the handle as the 4th kernel argument.

Call hipDeviceSynchronize after every kernel launch and use hipMemcpy.

Set the stream parameter to NULL in all hipMemcpyAsync calls.

Replace hipMalloc with hipHostMalloc exclusively.

QUESTION 2

Why is a GPU considered 'not meant to be driven as a strictly synchronous device'?

Because it has no internal clock.

Because waiting for the CPU to confirm every command leaves thousands of cores idle.

Because memory transfers cannot be tracked by the CPU.

Because the GPU must manage its own power state.

QUESTION 3

What is the primary risk of forcing the host to synchronize after every operation?

Memory corruption.

Host-side stalling and loss of hardware saturation.

Increased power consumption on the GPU.

Kernel compile errors.

QUESTION 4

In the logistics warehouse analogy, what does the 'Conveyor Belt' represent?

A HIP Stream.

The GPU Driver.

The CPU Cache.

The VRAM buffer.

QUESTION 5

True or False: hipMemcpyAsync returns control to the CPU before the data transfer is complete.

True

False